CUT&Tag 数据处理与分析教程 一(官方手把手教学)
“此更新于 2020 年 8 月 10 日
“最近 CUT&Tag 官方实验室写了一个关于此数据分析的教程,我正好就看见了,所以就慢慢过来与大家分享。
你可能会问 Steven Henikoff 是谁啊?你这一问只能说明你可能之前没怎么关注 CUT&Tag 背后的名字。康康谷歌学术发表过的论文:https://scholar.google.com/citations?user=SMwhtM8AAAAJ&hl=zh-CN, h-index 高达 133,至于什么是 h-index 我就不解释了,反正就是很牛逼,牛逼就行了。
Steven Henikoff 在网站 https://www.protocols.io/researchers/steven-henikoff 上记录了(可以说是手把手教你做你 CUT&Tag 实验了)CUT&Tag 实验相关步骤。我们来看一个图:
“可以清楚的看到,写了一系列关于 CUT&Tag 实验相关内容。忘了说了 CUT&RUN 也是他开发的
“接下来我会通过分成几篇博文来进行此流程的一个记录,跟着学习,相信我,你会有很多收获。
I 简介
CUT&Tag 概述
所有发生在真核生物 DNA 上的动态过程都发生在染色质中,包括核小体及其修饰、转录因子和染色质相关复合物。各种染色质特征标记了活跃和沉默转录调控元件和染色质区域的位点,这些位点在细胞类型之间不同,并且在发育过程中发生变化。
染色质特征全基因组的图谱传统上是使用染色质免疫共沉淀(ChIP: chromatin immunoprecipitation)进行的,其中染色质是交联和溶解的,对蛋白质的抗体或感兴趣的修饰是用来免疫沉淀结合的 DNA(图 1a)。自从 35 年 前首次描述芯片以来,芯片通常的表现方式几乎没有改变,而且仍然充满了信号噪声和人为因素问题。另一种可供选择的染色质谱分析策略是在原位酶栓( enzyme tethering in situ ),即染色质蛋白或感兴趣的修饰被抗体或融合蛋白靶向。然后,潜在的 DNA 被标记或裂解,在过去的二十年里,一系列的 enzyme-tethering 方法被引入。Cleavage Under Targets & Tagmentation (CUT&Tag) 是一种使用 protein-A-Tn5( pA-Tn5 ) 转座体融合蛋白的连接方法(图 1b)。在 CUT&Tag 中,通透性细胞或细胞核与特定染色质蛋白的抗体孵育,然后负载嵌镶末端接头的 pA-Tn5 被连续地连接到抗体结合位点。通过添加镁离子激活转座体,导致接头整合到附近的 DNA。然后这些基因被扩增,生成测序库。基于 Antibody-tethered Tn5-based 的方法由于 pA-Tn5 系结后严格的样品清洗和接头连接效率高,因此具有很高的灵敏度。相对于 ChIP-seq 而言,改善的信噪比意味着绘制染色质特征所需的 测序量减少了一个数量级,允许样本池 (通常高达 90 个样本) 通过文库的 条形码 barcoded PCR 在 Illumina NGS 测序仪上进行配对末端测序。
“图 1: 免疫沉淀和抗体靶向染色质谱分析策略的差异。A:ChIP-seq 实验流程 B: CUT&Tag 实验流程 细胞和细胞核是灰色的,染色质是红色的核小体,一个特定的染色质蛋白是绿色的
目标
本教程是为处理和分析按照 Bench top CUT&Tag V.3 protocol 的 CUT&Tag 数据而设计的。本教程中使用的插图数据是人淋巴瘤 K562 细胞系 组蛋白修饰的图谱,但本教程一般适用于任何染色质蛋白,包括转录因子、RNA 聚合酶 II 和表位标记蛋白。
CUT&Tag 数据处理和分析概述
环境配置需求
Linux system
R (versions >= 3.6)
dplyr stringr ggplot2 viridis GenomicRanges chromVAR DESeq2 ggpubr corrplot ChIPseqSpikeInFree [可选的]
library(dplyr)
library(stringr)
library(ggplot2)
library(viridis)
library(GenomicRanges)
library(chromVAR) ## 用于计算 FRiP 值和差异分析
library(DESeq2) ## 用于差异分析部分
library(ggpubr) ## 用于可视化
library(corrplot) ## 用于相关性图绘制
FastQC(version >= 0.11.9)
Bowtie2 (version >= 2.3.4.3)
samtools (version >= 1.10)
bedtools (version >= 2.29.1)
Picard (version >= 2.18.29)
SEACR (version >= 1.3)
deepTools (version >= 2.0)
数据下载
“在本教程中,我们使用的数据来自 Kaya-Okur et al., 2020,可以从 GEO 下载。下面提供了相应的 SRA 数据 ID。
从 GEO 下载 SRA 序列的选项:
a. 使用 SRA Toolkit b. 从 European Nucleotide Archive. 下载。新的 ENA 浏览地址:ENA: https://www.ebi.ac.uk/ena/browser/view,本文使用此方法。 c. 我自己补充一个网站 SRA Explorer:https://sra-explorer.info/#
首先我们需要指定项目路径:
##== linux 命令 ==##
projPath="/path/to/project/where/data/and/results/are/saved"
H3K27me3:
SH_Hs_K27m3_NX_0918 as replicate 1: GEO accession: GSE145187, SRA entry: SRX8754646 SH_Hs_K27m3_Xpc_0107 as replicate 2: GEO accession: GSE145187, SRA entry: SRX7713678 H3K4me3:
SH_Hs_K4m3_NX_0918 as replicate 1: GEO accession: GSE145187, SRA entry: SRX7713692 SH_Hs_K4m3_Xpc_0107 as replicate 2: GEO accession: GSE145187, SRA entry: SRX7713696 IgG:
SH_Hs_IgG_1x_0924 as replicate 1:GEO accession: GSE145187, SRA entry: SRX8468909 SH_Hs_IgG_20181224 as replicate 2: GEO accession: GSM3680227, SRA entry: SRX5545346
以 SH_Hs_IgG_20181224 为例:
##== linux 命令 ==##
wget -O $projPath/data/IgG_rep2/IgG_rep2_R1_001.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR875/001/SRR8754611/SRR8754611_1.fastq.gz
wget -O $projPath/data/IgG_rep2/IgG_rep2_R2_001.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR875/001/SRR8754611/SRR8754611_2.fastq.gz
wget -O $projPath/data/IgG_rep2/IgG_rep2_R1_002.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR875/002/SRR8754612/SRR8754612_1.fastq.gz
wget -O $projPath/data/IgG_rep2/IgG_rep2_R2_002.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR875/002/SRR8754612/SRR8754612_2.fastq.gz